查看原文
其他

FoldMason: 以工匠精神打磨蛋白质结构比对新工具

刘安吉 北京生物结构前沿研究中心
2024-08-30

星标,再也不怕错过更新!方法见文末动图。

01

背景

在生物信息学中,蛋白质结构的比对是理解蛋白质功能、进化历史以及它们之间关系的关键步骤。尽管蛋白质的氨基酸序列在不同物种中可能发生较大的变化,但其三维结构往往更加保守。这种结构的保守性使得我们能够通过比对蛋白质结构来揭示它们之间的远亲关系,即使这些蛋白质在序列上已经显著分化。


传统上,蛋白质的比对方法主要基于序列信息,这在处理相近或中度相似的序列时效果良好(例如常用的BLAST工具)。然而,当序列相似度降到所谓的“暮光区”(twilight zone)以下时,单靠序列比对已难以准确地揭示蛋白质间的关系。这种情况下,结构比对成为了一种更为有效的手段。通过比对蛋白质的三维结构,我们可以更准确地识别那些尽管序列上差异显著,但在结构和功能上仍具有相似性的蛋白质家族。


近年来,随着蛋白质结构预测技术的进步,如AlphaFold等工具的出现,我们获取了海量的蛋白质结构数据。然而,这也带来了新的挑战,即如何在如此庞大的数据集中快速、准确地进行结构比对和分析。因此,开发高效的多重结构比对方法成为生物信息学研究中的一个重要课题。

结构预测工具与结构数据库的发展


2024年8月3日,首尔大学Martin Steinegger课题组在bioRxiv发表了题为“Multiple Protein Structure Alignment at Scale with FoldMason”的研究论文。该研究提出了一种名为FoldMason的全新方法,能够在大规模蛋白质结构比对中提供高效且精确的多重比对工具。研究深入探讨了FoldMason在处理成千上万的蛋白质结构时的性能优势,并展示了其在结构保守性分析和进化关系研究中的应用潜力。



本文的作者Martin Steinegger教授近年来也深耕于大规模序列与结构数据分析和方法开发,至今已有很多的积累。他开发的主要工具(如下图)可以分为两类:基于序列分析和基于结构分析。基于序列分析的工具包括MMseq2和Linclust。MMseq2是这一系列工作的坚实基础,用于搜索和聚类庞大的蛋白质和核苷酸序列集,能够快速有效的处理海量数据,进行大规模筛选。Linclust则侧重于快速聚类,具备随着输入数据集规模线性扩展的能力,使得它非常适合处理大规模序列数据。而在基于结构分析的工具中,ColabFold提供了一个易于使用的环境,用于快速而便捷的蛋白质结构预测。Foldseek则专注于蛋白质结构的搜索和聚类,能够高效地识别和组织结构相似性。最后,FoldMason,也就是本文提出的工具,则整合了前面提到的工具的优势,提供了一个用于大规模多重蛋白质结构比对的解决方案。


团队代表方法

02

 方法

针对蛋白质结构数据的工具也进行了多轮的迭代与优化,逐渐形成了完整的工具矩阵。团队最早在2022年开发的Foldseek用于将三维蛋白质结构转换为一维序列,并快速进行结构比对和搜索,现在已经成为结构搜索与比对的基准工具。Foldcomp专注于压缩和存储三维结构数据,特别对于AFDB这种超大结构数据库。Foldseek-cluster则通过Foldseek进行大规模结构聚类,能够有效处理整个AFDB的巨大结构集。Foldseek-multimer扩展了Foldseek的功能,使其从仅能分析单体转变为可以分析多聚体结构。最后,本文介绍的FoldMason则用于大规模多重蛋白质结构比对(MSTA),并深入分析AFDB中的结构集群。


团队为蛋白质结构分析提供了全面的解决方案


多重序列比对(MSA)是生物信息学中的基本工具,用于分析蛋白质或核酸序列的相似性和进化关系。常用的工具包括MAFFT、MUSCLE和Clustal Omega,它们通常采用渐进比对方法。然而,仅凭序列比对可能不足以揭示深远的进化关系,这时多重结构比对(MSTA)通过比较蛋白质的三维结构来补充这一不足,常用的MSTA工具包括mTM-align和MUSTANG。MSTA在揭示结构保守性和远亲蛋白质关系方面具有重要意义。


本文开发的工具FoldMason则是专为多重蛋白质结构比对(MSTA)设计的工具,它采用了一系列高效的算法来确保比对的速度和精度。


FoldMason架构图


首先,FoldMason采用和Foldseek类似的方法,将输入的三维蛋白质结构转换为一维序列。他们使用了一种叫做3Di+AA的结构字母表,能够将复杂的三维相互作用简化为线性序列,便于快速比对。接着,它对所有输入的结构进行全对全比对(All vs. all comparison),通过一个加速的无间隙比对算法计算出每对结构之间的相似性得分。


Foldseek采用的方法


在得到这些得分后,FoldMason构建了一棵最小生成树(MST),用来指导比对的顺序。比对过程从树的叶节点开始,逐步向根节点推进,这样可以确保在比对最相似的结构时先完成,再逐步合并到整个比对结果中。


为了进一步提高比对的精度,FoldMason还提供了一个迭代优化的步骤,利用局部距离差异测试(LDDT)得分来优化初始比对结果。这一流程不仅提高了比对的精度,还能有效处理大规模的数据集,使FoldMason成为蛋白质结构比对领域的强大工具。


03

 实验

在开发FoldMason的过程中,研究团队通过多种测试验证了其性能和准确性。他们使用了多个基准数据集,包括Homstrad蛋白质家族数据集(~1000个蛋白)和AlphaFold数据库(AFDB)聚类数据集,来评估FoldMason的比对精度。测试结果显示,FoldMason在比对质量上达到了与其他顶级结构比对工具相当甚至更高的水平。特别是在处理高度分化的蛋白质结构时,FoldMason表现尤为出色。此外,FoldMason在速度上实现了显著的提升,能够在大规模数据集上比传统工具快数百倍。这些测试还展示了FoldMason的卓越可扩展性,使其成为处理成千上万个蛋白质结构的理想工具。

FoldMason在测试数据集上与其他方法的对比


在蛋白质结构比对中,结构过于灵活(Flexible)可能导致比对不准确,但是FoldMason收到灵活结构域的影响并没有很大。


在本文的方法测试中,研究团队通过比较不同工具对结构灵活可变蛋白的对齐效果,评估了FoldMason的性能。测试对象包括三组蛋白:钙调蛋白(calmodulin,4个构象)、血红蛋白(globin,9个构象)和气味结合蛋白(odorant-binding protein,5个构象)。这些蛋白在PDB中具有不同的构象,因此为测试工具处理结构灵活性提供了理想的案例。


结果显示,传统的mTM-align工具在对齐这些结构时存在显著不足。例如,在钙调蛋白的对齐中,mTM-align无法正确对齐C端;在血红蛋白中,工具在中段的对齐表现不佳;在气味结合蛋白中,N端的对齐无法准确完成。相比之下,FoldMason在这些测试中表现出色,成功地对齐了所有结构区域,显著优于mTM-align,展示了其在处理结构灵活性方面的强大能力。


研究团队还构建了具有远源分类关系的蛋白的进化树,以评估其在系统发育分析中的表现。测试对象为黄病毒(Flaviviridae)糖蛋白的预测结构集。下图展示了这一测试的结果。


利用FoldMason在黄病毒中进行远源进化分析


在图的上半部分,展示了其他研究人员使用Foldseek对黄病毒糖蛋白(长度为300的序列片段)的AlphaFold2预测结构进行逐对比对,进而构建的多重结构比对(MSTA)及其相应的进化树。而在图的下半部分,Steinegger课题组使用FoldMason对完整的AlphaFold2预测结构直接构建了MSTA,并生成了对应的进化树。


从直观上看,每一列中的两个进化树图非常相似。通过quartet similarity (Q.S.) 得分计算无根树图的相似度,结果进一步验证了这一观察,显示出两个树图之间确实具有高度的一致性。这表明FoldMason在处理全长结构并进行系统发育分析时,能够生成与传统方法高度一致的结果。并且,FoldMason通过一步操作,就可以实现相似的功能,可以说非常万用。


最后,FoldMason提供了用户友好的网页界面,供大家使用。如果想安装在本地,也可以点击文末的链接。

Foldmason在线服务器界面

04

 总结

本文介绍了Martin Steinegger实验室新开发的用于大规模蛋白质结构比对的工具FoldMason。FoldMason采用了与Foldseek类似的处理蛋白质结构的方法,巧妙的实现了快速高效的蛋白质结构比对。本文作者也通过多项测试验证了其卓越性能。与其他结构比对工具相比,FoldMason在处理结构灵活性较高的蛋白质时表现更为出色,能够准确对齐不同构象的关键结构区域。此外,FoldMason在构建具有远源分类关系的蛋白质进化树时,也展现了其高效性和准确性,与现有方法生成的结果高度一致。FoldMason将Foldseek系列的工具的极限进一步向前推进,未来会发展到什么程度,也让我们拭目以待。



原文链接 

https://www.biorxiv.org/content/10.1101/2024.08.01.606130v1


在线服务器

https://search.foldseek.com/foldmason


Github安装代码 

https://github.com/steineggerlab/foldmason


供稿 | 刘安吉

责编 | 囡囡

设计 / 排版 | 可洲 




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群


精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”


继续滑动看下一个
北京生物结构前沿研究中心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存